機械学習実習 3回課題
以下、問題に対して、思考のメモを残す
課題1
(1) 教師あり学習と教師なし学習について以下の問に答えよ
✅b-1)教師あり学習ができるデータで,教師なし学習はできるか? Yes/No
yes
理由
教師なし学習は、入力データさえあれば実行可能であるため
✅b-2)教師なし学習ができるデータで,教師あり学習はできるか? Yes/No
no
理由
教師あり学習は、入力値のデータと結果であるラベル情報が必要であるが、教師なし学習は
✅b-3)以上を踏まえ,教師あり学習と教師なし学習について説明せよ.
説明
挙げるだけでいいのでは?
2つ
とか
2つ
✅a) 図 3.4 のようなヒストグラムを描き,コマンドと図をレポートに貼り付けよ.
思考
cancerの例を動かして、データ入れ替える
データを可視化して、データを観察
特徴量の数による
iris 4つ
2つの特徴量の関係性を見たい場合
4 * 3 = 12
多い特徴量に対して、今回の手法を使う
花の種類は3つ
✅b) 以下のコマンドでデータの前処理をしましょう.
code:script.py
from sklearn.preprocessing import StandardScaler
scaler =StandardScaler()
scaler.fit(iris_dataset.data)
X_scaled = scaler.transform(iris_dataset.data)
思考
このコマンドの意味は?
✅c) PCA を実行し,コマンドをレポートに貼り付けよ
✅d) PCA の結果を図3−5のように図示し,コマンドと図をレポートに貼り付けよ
拡張課題
時間余ればやる
(e) 可能な人だけ解けば良い.
d)では,第一主成分と第二主成分の散布図を書きました. d)のコマンドを使って,2つの散布図を新たに作成図しましょう.
e-1)元データ(iris_dataset.data)の2軸( sepal length と sepal width)の散布図
e-2)元データ(iris_dataset.data)の2軸( petal length と petal width)の散布図
✅課題2
✅(3) iris データセットに対して,t-SNE を実行せよ. その際,図 3-25 に相当する図をレポートに含める事
課題3
説明に際して,教科書の表 4-1 以外の具体的な例を挙げて説明せよ.
説明に際しては,
a)ワンホットエンコーディングの具体例及び,
b)なぜワンホットエンコーディング(ダミー変数)が必要なのかを説明せよ.
課題を簡単にするため,以下のスクリプトを実行した後の iris.df をワンホット エンコーディングせよ.
code:script.py
iris = load_iris()
iris.df = pd.DataFrame(iris.data)
iris.df.columns = iris.feature_names
なお,どの列(項目)がワンホットエンコーディングされた かを明示すること.
その際,
b)あるデータの 3-fold cross-validation の行い方
なお,b)については「訓練セット」「テストセット」という用語を用いて説明する事